A Arquitetura Oculta da Linguagem
Modelos de Linguagem de Grande Escala (LLMs) não "leem" texto da forma como os humanos fazem. Enquanto nós vemos letras e palavras, os modelos processam informações em pedaços numéricos chamados Tokens. Compreender essa abstração é o primeiro passo para dominar a engenharia de prompts e o design de sistemas.
O Teste do Chiclete
Por que um LLM tem dificuldade em inverter as letras na palavra "lollipop", mas consegue instantaneamente quando solicitado a inverter "l-o-l-l-i-p-o-p"?
- O Problema:Na palavra padrão, o modelo vê um único token representando toda a palavra. Ele não possui um "mapa" claro das letras individuais dentro desse token.
- A Solução:Ao usar hífens na palavra, você força o modelo a tokenizar cada letra individualmente, fornecendo a "visão" detalhada necessária para realizar a tarefa.
Princípios Fundamentais
- Taxa de Tokens:Como regra geral, 1 token equivale a aproximadamente 4 caracteres em inglês, ou cerca de 0,75 de uma palavra.
- Janelas de Contexto:Os modelos têm um tamanho fixo de "memória" (por exemplo, 4096 tokens). Esse limite inclui suas instruções e a resposta do modelo.
Base versus Modelo Treinado com Instruções
- LLMs Base:Prediz a próxima palavra mais provável com base em grandes conjuntos de dados (por exemplo, "Qual é a capital da França?" pode ser seguida por "Qual é a capital da Alemanha?").
- LLMs Treinados com Instruções:Ajustados por meio de Aprendizado por Reforço com Feedback Humano (RLHF) para seguir comandos específicos e atuar como assistentes.
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
If you are processing a document that is 3,000 English characters long, roughly how many tokens will the model consume?
Question 2
Why is an Instruction-Tuned LLM preferred over a Base LLM for building a chatbot?
Challenge: Token Estimation
Apply the token ratio rule to a real-world scenario.
You are designing an automated summarization system. The system receives daily reports that average 10,000 characters in length.
Your API provider charges $0.002 per 1,000 tokens.
Your API provider charges $0.002 per 1,000 tokens.
Step 1
Estimate the number of tokens for a single daily report.
Solution:
Using the rule of thumb (1 token ≈ 4 characters):
$$ \text{Tokens} = \frac{10,000}{4} = 2,500 \text{ tokens} $$
Using the rule of thumb (1 token ≈ 4 characters):
$$ \text{Tokens} = \frac{10,000}{4} = 2,500 \text{ tokens} $$
Step 2
Calculate the estimated cost to process one daily report.
Solution:
The cost is $0.002 per 1,000 tokens.
$$ \text{Cost} = \left( \frac{2,500}{1,000} \right) \times 0.002 = 2.5 \times 0.002 = \$0.005 $$
The cost is $0.002 per 1,000 tokens.
$$ \text{Cost} = \left( \frac{2,500}{1,000} \right) \times 0.002 = 2.5 \times 0.002 = \$0.005 $$